Recently, great progress has been made in single-image super-resolution (SISR) based on deep learning technology. However, the existing methods usually require a large computational cost. Meanwhile, the activation function will cause some features of the intermediate layer to be lost. Therefore, it is a challenge to make the model lightweight while reducing the impact of intermediate feature loss on the reconstruction quality. In this paper, we propose a Feature Interaction Weighted Hybrid Network (FIWHN) to alleviate the above problem. Specifically, FIWHN consists of a series of novel Wide-residual Distillation Interaction Blocks (WDIB) as the backbone, where every third WDIBs form a Feature shuffle Weighted Group (FSWG) by mutual information mixing and fusion. In addition, to mitigate the adverse effects of intermediate feature loss on the reconstruction results, we introduced a well-designed Wide Convolutional Residual Weighting (WCRW) and Wide Identical Residual Weighting (WIRW) units in WDIB, and effectively cross-fused features of different finenesses through a Wide-residual Distillation Connection (WRDC) framework and a Self-Calibrating Fusion (SCF) unit. Finally, to complement the global features lacking in the CNN model, we introduced the Transformer into our model and explored a new way of combining the CNN and Transformer. Extensive quantitative and qualitative experiments on low-level and high-level tasks show that our proposed FIWHN can achieve a good balance between performance and efficiency, and is more conducive to downstream tasks to solve problems in low-pixel scenarios.
translated by 谷歌翻译
卷积神经网络(CNN)通过深度体系结构获得了出色的性能。但是,这些CNN在复杂的场景下通常对图像超分辨率(SR)实现较差的鲁棒性。在本文中,我们通过利用不同类型的结构信息来获得高质量图像,提出了异质组SR CNN(HGSRCNN)。具体而言,HGSRCNN的每个异质组块(HGB)都采用含有对称组卷积块和互补的卷积块的异质体系结构,并以平行方式增强不同渠道的内部和外部关系,以促进富裕类型的较富裕类型的信息, 。为了防止出现获得的冗余功能,以串行方式具有信号增强功能的完善块旨在过滤无用的信息。为了防止原始信息的丢失,多级增强机制指导CNN获得对称架构,以促进HGSRCNN的表达能力。此外,开发了一种平行的向上采样机制来训练盲目的SR模型。广泛的实验表明,在定量和定性分析方面,提出的HGSRCNN获得了出色的SR性能。可以在https://github.com/hellloxiaotian/hgsrcnn上访问代码。
translated by 谷歌翻译
卷积神经网络(CNN)和变压器在多媒体应用中取得了巨大成功。但是,几乎没有努力有效,有效地协调这两个架构以满足图像的范围。本文旨在统一这两种架构,以利用其学习优点来降低图像。特别是,CNN的局部连通性和翻译等效性以及变压器中自我注意力(SA)的全球聚合能力被完全利用用于特定的局部环境和全球结构表示。基于雨水分布揭示降解位置和程度的观察,我们在帮助背景恢复之前引入退化,并因此呈现关联细化方案。提出了一种新型的多输入注意模块(MAM),以将降雨的去除和背景恢复关联。此外,我们为模型配备了有效的深度可分离卷积,以学习特定的特征表示并权衡计算复杂性。广泛的实验表明,我们提出的方法(称为ELF)的表现平均比最先进的方法(MPRNET)优于0.25 dB,但仅占其计算成本和参数的11.7 \%和42.1 \%。源代码可从https://github.com/kuijiang94/magic-elf获得。
translated by 谷歌翻译
了解驾驶场景中的雾图像序列对于自主驾驶至关重要,但是由于难以收集和注释不利天气的现实世界图像,这仍然是一项艰巨的任务。最近,自我训练策略被认为是无监督域适应的强大解决方案,通过生成目标伪标签并重新训练模型,它迭代地将模型从源域转化为目标域。但是,选择自信的伪标签不可避免地会遭受稀疏与准确性之间的冲突,这两者都会导致次优模型。为了解决这个问题,我们利用了驾驶场景的雾图图像序列的特征,以使自信的伪标签致密。具体而言,基于顺序图像数据的局部空间相似性和相邻时间对应的两个发现,我们提出了一种新型的目标域驱动的伪标签扩散(TDO-DIF)方案。它采用超像素和光学流来识别空间相似性和时间对应关系,然后扩散自信但稀疏的伪像标签,或者是由流量链接的超像素或时间对应对。此外,为了确保扩散像素的特征相似性,我们在模型重新训练阶段引入了局部空间相似性损失和时间对比度损失。实验结果表明,我们的TDO-DIF方案有助于自适应模型在两个公共可用的天然雾化数据集(超过雾气的Zurich and Forggy驾驶)上实现51.92%和53.84%的平均跨工会(MIOU),这超过了最态度ART无监督的域自适应语义分割方法。可以在https://github.com/velor2012/tdo-dif上找到模型和数据。
translated by 谷歌翻译
具有强大学习能力的CNN被广泛选择以解决超分辨率问题。但是,CNN依靠更深的网络体系结构来提高图像超分辨率的性能,这可能会增加计算成本。在本文中,我们提出了一个增强的超分辨率组CNN(ESRGCNN),具有浅层架构,通过完全融合了深层和宽的通道特征,以在单图超级分辨率中的不同通道的相关性提取更准确的低频信息( SISR)。同样,ESRGCNN中的信号增强操作对于继承更长途上下文信息以解决长期依赖性也很有用。将自适应上采样操作收集到CNN中,以获得具有不同大小的低分辨率图像的图像超分辨率模型。广泛的实验报告说,我们的ESRGCNN在SISR中的SISR性能,复杂性,执行速度,图像质量评估和SISR的视觉效果方面超过了最先进的实验。代码可在https://github.com/hellloxiaotian/esrgcnn上找到。
translated by 谷歌翻译
在动态场景中拍摄的图像可能包含不必要的运动模糊,从而大大降低视觉质量。这种模糊会导致短期和远程特定区域的平滑伪像,通常是方向性和不均匀的,很难去除。受到变压器在计算机视觉和图像处理任务的最新成功的启发,我们开发了Stripformer,这是一种基于变压器的体系结构,该体系结构构建了内部和跨条纹代币,以在水平和垂直方向上重新构建图像特征,以捕获模糊的模式,以不同于不同方向。它堆叠了隔离的内带和串间注意层,以揭示模糊的幅度。除了检测各种取向和幅度的区域特异性模式外,Stripformer还是一个令牌效率和参数有效的变压器模型,要求比Vanilla变压器更少的内存使用和计算成本要少得多,但在不依赖巨大训练数据的情况下工作得更好。实验结果表明,在动态场景中,脱衣舞素对最新模型的表现良好。
translated by 谷歌翻译
虽然在清澈的天气下,在语义场景的理解中取得了相当大的进展,但由于不完美的观察结果引起的不确定性,在恶劣的天气条件下,仍然是一个艰难的问题。此外,收集和标记有雾图像的困难阻碍了这一领域的进展。考虑到在清晰天气下的语义场景理解中的成功,我们认为从清除图像到雾域中学习的知识是合理的。因此,问题变为弥合清晰图像和有雾图像之间的域间隙。与以往的方法不同,主要关注雾雾型磁盘差距 - 缺陷图像或雾化清晰的图像,我们建议通过同时考虑雾影响和风格变化来缓解域间隙。动机基于我们的发现,通过添加中间结构域,可以分别分别划分和关闭迷雾相关间隙。因此,我们提出了一种新的管道来累积适应风格,雾和双因素(风格和雾)。具体而言,我们设计了一个统一的框架,分别解开风格因子和雾因子,然后是不同域中图像的双因素。此外,我们合作了三种因素的解剖,具有新颖的累积损失,以彻底解解这三个因素。我们的方法在三个基准上实现了最先进的性能,并在多雨和雪景中显示了泛化能力。
translated by 谷歌翻译
低光图像增强旨在提高图像的可见性,同时保持其视觉自然。与现有方法不同,倾向于直接通过忽略保真度和自然恢复来完成致密任务,我们调查内在的退化和赖光图像,同时改进细节和颜色两步。灵感来自彩色图像配方(漫反射颜色加环境照明颜色),我们首先估计低光输入的劣化,以模拟环境照明颜色的失真,然后优化内容以恢复漫反射照明颜色的损失。为此,我们提出了一种新的劣化到精炼生成网络(DRGN)。其独特的特点可以总结为1)一种新型的两步生成网络,用于降解学习和内容细化。它不仅优于一步法,还能够合成足够的配对样本来利用模型培训; 2)多分辨率融合网络以多规模的协作方式表示目标信息(劣化或内容),这更有效地解决复杂的解密问题。关于增强任务和联合检测任务的广泛实验已经验证了我们提出的方法的有效性和效率,分别超过了SOTA \ Texit {0.70dB平均值和地图}。代码可用于\ URL {https://github.com/kuijiang0802/drgn}。
translated by 谷歌翻译
图像运动模糊通常是由于移动物体或摄像头摇动而导致的。这种模糊通常是方向性的,不均匀。先前的研究工作试图通过使用自我注意力的自我次数多尺度或多斑架构来解决非均匀的模糊。但是,使用自我电流框架通常会导致更长的推理时间,而像素间或通道间的自我注意力可能会导致过度记忆使用。本文提出了模糊的注意力网络(BANET),该网络通过单个正向通行证完成了准确有效的脱脂。我们的Banet利用基于区域的自我注意力,并通过多内核条池汇总到不同程度的模糊模式,并具有级联的平行扩张卷积,以汇总多尺度内容特征。关于GoPro和Hide基准的广泛实验结果表明,所提出的班轮在模糊的图像修复中表现出色,并可以实时提供Deblurred结果。
translated by 谷歌翻译
在视觉字幕上取得了重大进展,在很大程度上取决于预训练的特征和后来的固定对象探测器,这些特征是自动回归模型的丰富输入。但是,此类方法的关键限制是模型的输出仅在对象检测器的输出上。这样的输出可以代表所有必要信息的假设是不现实的,尤其是当检测器跨数据集传输时。在这项工作中,我们推理了该假设引起的图形模型,并建议添加辅助输入来表示缺失的信息,例如对象关系。我们专门提议从视觉基因组数据集中挖掘属性和关系,并在其上调节字幕模型。至关重要的是,我们建议(并表明)使用多模式预训练模型(剪辑)来检索这种上下文描述。此外,对象探测器模型被冷冻,并且没有足够的丰富度来使字幕模型正确地接地。结果,我们建议在图像上调节检测器和描述输出,并在定性和定量上显示这可以改善接地。我们在图像字幕上验证我们的方法,对每个组件进行彻底分析以及预训练的多模式模型的重要性,并证明了对当前状态的显着改善,特别是苹果酒的 +7.5%,在BLEU中 +1.3%。 -4指标。
translated by 谷歌翻译